DPO

Direct Preference Optimization
리워드 모델 없이 LLM policy model만을 학습시킨다.
어떻게 하냐면, 사람에게 두 답변 결과를 주고 선호되는 답변을 고르게 한다.
훈련되는 모델에게는 선호되는 답변을 생성하게, 선호되지 않은 답변은 덜 생성하게 loss를 계산하여 훈련한다.

수식

LDPO(πθ;πref)=E(x,yw,yl)D[log σ(βlogπθ(yw|x)πref(yw|x)βlogπθ(yl|x)πref(yl|x))]

위 수식이 DPO의 loss function이다.

수식을 보면 알 수 있겠지만, 사람이 선호한 결과는 높게, 선호하지 않은 결과가 샘플링될 확률은 낮게 훈련이 진행된다는 것을 알 수 있다.